2018-04-12

【深度学习】基础篇

基础概念

NN
前馈网络: 前馈是相对反馈(backward)，带反馈的网络就构成了环，即有环网络。通常所用到的网络都是前馈网络。
感知机
多层感知机
autoencoder
RBM

答疑

梯度爆炸梯度消失

Q: 梯度消失就是0.9^30≈0.04？梯度爆炸就是1.1的n次方？
   怎样不消失，不爆炸呢？就是1的n次方吗？
A: 是的，ReLU就是这么干的

Q: 那sigmoid和tanh，是不是就彻底被淘汰了？
A: 网络不深可以用，具体情况具体分析
   再说了batch normalization的作用对于mitigate这种情况效果不错

Q: 除了ReLU，还有什么能防止梯度爆炸、梯度消失的策略？
A: 还有一些特殊的网络结果诸如resnet LSTM，也可以防止梯度小时或者爆炸，但不能根本解决

Q: 为什么BN能起到一定的作用？
A: 避免了梯度非常小，或者非常大。将梯度归一化到一个固定范围，相当于他说的消除了柔性
   通过mini-batch来对相应的activation做规范化操作，使得结果（输出信号各个维度）的均值为0，方差为1

Q: 为什么resnet LSTM，能防止梯度爆炸 梯度消失？
A: 因为避免了连乘。

Q: 可以理解bn是集中到标准正态分布范围内，但是网络里用的ReLU抑制负数所以有损失吗？
A:

Q: RNN 为什么会出现 Gradient Vanish？LSTM为什么能防止梯度消失？

激活函数 (activation function)

VGG ResNet都采用ReLU

基础概念

答疑

梯度爆炸 梯度消失

激活函数 (activation function)

梯度爆炸梯度消失